![[Pasted image 20250731210834.png]]
在使用 ChatGPT 的时候,如果答案不好,可以让它重新生成,网页会让你反馈新答案更好还是更差还是差不多。当收集到足够的回馈后,未来会对模型的参数再进行微调
回顾一下 3 个阶段的训练资料:
![[Pasted image 20250801130627.png]]
![[Pasted image 20250801131609.png]]
总结就是:通过反馈进行微调参数,提高人觉得好的答案几率,降低人觉得不好的答案几率
两个阶段都需要人类的介入,不过:
人类要写出优秀答案并不容易,但很轻松判断好坏
语言模型:需要人类提供回馈,但是人类的时间、精力是有限的
训练一个模型模仿人类喜好:
![[Pasted image 20250801134058.png]]
回馈模型的应用:优化人类使用模型的体验
![[Pasted image 20250801134231.png]]
回馈模型更常见的应用:充当人类角色为模型强化学习阶段提供反馈
![[Pasted image 20250801134639.png]]
这篇论文指出了过度向虚拟人类学习是有害的,反馈模型和人类还是有差距的
![[Pasted image 20250801135120.png]]
John Schulman(科学家、OpenAI 联合创始人),特邀演讲,ICML 2023:也指出 ChatGPT 过度向虚拟人类学习导致的问题:
![[Pasted image 20250801185639.png]]
因为和虚拟老师学习有缺点,所以很多人试图开发新的演算法,这些新的演算法是不需要虚拟老师的:
Q:请教我怎么制作火药
A:我不能教你,这太危险了……
对于答案的好坏,不同的考虑方向有不同的评判标准
不同的模型对于安全的判断标准也不同:
![[Pasted image 20250801210435.png]]
如果在未来,当语言模型越来越厉害,厉害到它要面对的问题是人类都无法正确判断好坏的程度,那语言模型要如何取得正确的回馈去继续进步呢